Homoskedasticity and Heteroskedasticity

若样本是独立同分布的,则有

E[eX]=[E[eiX]]=[E[eiXi]]=0

定义样本误差项的条件方差矩阵为

ΩVar[eX]=E[eeTX]E[eX]E[eX]T=E[eeTX]

一般地,条件方差矩阵为

Ω=[σ112σ1n2σn12σnn2]

其中,σij2=Cov(ei,ejX)=E[eiejX]

Homogeneity 假设为 Ω 主对角线元素相同,即 σii2=σ2

Heterogeneity 假设为 Ω 主对角线元素不同,即 σii2=σi2

Uncorrelated 假设为 Ω 非主对角线元素为 0,即 σij2=0

根据定义,只需要样本是独立同分布的就满足 Uncorrelated 假设

Correlated 假设为 Ω 非主对角线元素不为 0,即 σij20

同方差(Homoskedasticity)指 Homogeneity 和 Uncorrelated,即

Ω=σ2In

异方差(Heteroskedasticity)指 Heterogeneity 和 Uncorrelated,即

Ω=[σ1200σn2]

Estimate Conditional Variance of Error

在同方差假设下,估计 Ω 相当于要估计 σ2,一个朴素(naive)估计量是残差的平方均值:

σ~2=eTen

然而,这个估计量是有偏的。

变换表达式为:

σ~2=eTen=1neTMe=1nTr(eTMe)=1nTr(MeeT)

这是因为① Annihilator Matrix 的性质 ② eTMe 是一个二次型,也就是一个数(1×1 矩阵),根据 Trace Operator 的定义,数的迹等于自己。

朴素估计量的条件期望为

E[σ~2X]=1nTr(E[MeTeX])=1nTr(ME[eTeX])=σ2nTr(M)=σ2nknσ2

其中,Tr(M)=nk 表示线性投影后剩余的维度,见 Annihilator Matrix

因此,需要经过一些调整得到无偏估计量

σ^2nnkeTen=eTenkE[σ^2X]=σ2

从而得到同方差假设下的参数估计量条件方差估计值为

V^=(XTX)1eTenk

相应的,第 j 个自变量的标准差为

Se^(β^jX)=eTenk(XjX¯j)T(XjX¯j)

Robust Standard Variance of LS Estimator

在异方差假设下,估计 Ω 相当于要估计 σi2,一个朴素(naive)估计量是残差的平方:

σ~i=ei2

从而得到异方差假设下的参数估计量条件方差估计量为

V^HC0=(XTX)1XT[e1200en2]X(XTX)1

然而朴素估计量是有偏的,无偏估计量为

σ^i2nnkei2

从而得到异方差假设下的参数估计量条件方差估计量为

V^HC1=nnkV^HC0

相应的,第 j 个自变量所谓稳健标准差为

Se^(β^jX)=V^jHC1

其中,V^jHC1 表示 V^HC1 主对角线上第 j 个元素。

这也是 stata 当中使用 robust 选项默认使用的估计量

Cluster Robust